插值假设数据是纯净的。在现实世界中,数据杂乱无章、充满抖动和噪声。当我们坚持必须精确命中每一个数据点时,我们找到的不是真相——而是混乱。今天,我们将超越对精确性的僵化要求,进入近似的哲学领域 近似。
精确性的失败
尽管高次多项式可以经过每一个数据点,但通常会产生类似龙格(Runge)的振荡。这些剧烈的波动与底层物理过程毫无关联。 因此,要求近似函数与数据完全一致是不合理的尤其当测量存在变异性时更是如此。
定义“最佳”拟合:三种范数
为了实现近似,我们必须定义一个误差函数 $E$。我们衡量“接近程度”的方式将彻底改变结果:
1. 极小极大问题($L_{\infty}$ 范数)
旨在最小化可能的最大误差:
$$E_{\infty}(a_0, a_1) = \max_{1 \le i \le n} \{|y_i - (a_1 x_i + a_0)|\}$$
缺陷: 极小极大方法通常会给那些严重出错的数据赋予过高的权重。
2. 绝对偏差($L_1$ 范数)
绝对差值之和:
$$E_1(a_0, a_1) = \sum_{i=1}^{n} |y_i - (a_1 x_i + a_0)|$$
缺陷: 绝对值函数在零点不可导,我们可能无法解析地求解这一组方程。
3. 最小二乘法的优越性($L_2$ 范数)
数值分析中的标准方法,对残差进行平方:
$$E_2(a_0, a_1) = \sum_{i=1}^{n} [y_i - (a_1 x_i + a_0)]^2$$
这创造了一个平滑且可导的曲面,使得微积分能够轻松找到全局最小值。
解析约束
选择度量标准是逻辑与微积分之间的权衡。例如,绝对偏差方法对明显偏离近似值的点赋予的权重不足,而 $L_2$ 提供了一个稳健的中间方案,在惩罚大离群点的同时,不会被单个异常数据点完全主导。
🎯 核心原则
近似是一门忽略噪声以发现信号的艺术。通过从点匹配转向误差最小化,我们得以恢复被测量变异性所掩盖的真实物理定律。